مقایسه روش الگوریتم em و روش های متداول جانهی داده های گمشده: مطالعه روی پرسشنامه خوددرمانی بیماران دیابتی

Authors

علیرضا افشاری صفوی

a afshari safavi assistant professor, chronic diseases reseaarchcommittee, isfahan university of medical sciences, isfahan, iranگروه آمار و اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی اصفهان حسین کاظم زاده قره چبق

h kazemzadeh gharechobogh msc of statistics, social security organization, tehranاداره کل آمار، اداره کل شرق تهران بزرگ ، سازمان تأمین اجتماعی منصور رضایی

m rezaei department of biostatistics and epidemiology, kermanshah university of medical sciences, kermanshah, iranگروه آمار و اپیدمیولوژی، دانشکده بهداشت، مرکز تحقیقات توسعه اجتماعی و ارتقاء سلامت دانشگاه علوم پزشکی کرمانشاه

abstract

مقدمه و اهداف: داده های گمشده، چالش بزرگی در پژوهش ها به شمار می آیند. به فراخور نوع مطالعه و نوع متغیرهای مورد بررسی، روش های گوناگونی برای کار با این داده ها تا کنون معرفی شده است. هدف این مطالعه مقایسه پنج روش جانهی متداول در برخورد با گمشدگی در داده های پرسشنامه ای بود. روش کار: در این مطالعه تعداد500 پرسشنامه مربوط به خوددرمانی در بیماران دیابتی مورد استفاده قرار گرفت. گمشدگی در مشاهده ها به صورت تصنعی و با انتخاب تصادفی سؤالاتسؤالات و سپس حذف آن ها تولید شد. پنج روش جانهی عبارت بودند از: 1- میانگین سؤالاتسؤالات؛ 2- میانگین فردی؛ 3- نمای فردی؛ 4- رگرسیون خطی؛ و 5- الگوریتم em. برای هر روش میانگین و انحراف معیار نمرات جانهی شده با مقادیر اصلی مقایسه گردید. هم چنین ضریب همبستگی اسپیرمن، درصد دسته بندی اشتباه و آماره کاپا نیز محاسبه شد. یافته ها: مقدار آماره کاپای بالاتر از 81/0 برای سطح گمشدگی 10 درصد بیانگر توافق تقریباً کامل در این سطح از گمشدگی بود. الگوریتم em بالاترین میزان توافق با نتایج داده های واقعی را با مقدار آماره کاپای 886/0 نشان داد. هم چنین با افزایش میزان گمشدگی اطلاعات به 30 درصد، الگوریتم em و روش میانگین فردی با مقدار کاپای 697/0 و 687/0از توافق نسبتاً مشابهی برخوردار بودند. نتیجه‏ گیری: در این مطالعه الگوریتم em دقیق ترین روش برای کار با داده های گمشده در تمام الگوهای مورد ارزیابی شناخته شد. روش میانگین فردی به دلیل سادگی کار با داده های گمشده به ویژه برای بیش تر خوانندگان غیرآماری می تواند مورد توجه قرار گیرد.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

مقایسه روش الگوریتم EM و روش‌های متداول جانهی داده‌های گمشده: مطالعه‌روی پرسشنامه خوددرمانی بیماران دیابتی

Background and Objectives: Missing data is a big challenge in the research. According to the type of the study and of the variables, different ways have been proposed to work with these data. This study compared five popular imputation approaches in addressing missing data in the questionnaires. Methods: In this study, 500 questionnaires were used for self-medication in diabetic patients. Mi...

full text

مقایسه‌ی جانهی الگوریتم EM با دو روش جانهی میانگینی و نمونه‌های جدید در آمارگیری‌های پانلی

 در اقتصاد و سایر علوم اجتماعی، پژوهش‌گران اغلب تمایل به مدل‌بندی داده‌های پانلی که در آن واحدهای نمونه‌ای به‌‌طور مکرر در مقاطع زمانی مختلف مشاهده می‌شوند، دارند. یکی از کاربردهای داده‌های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در تمام آمارگیری‌ها به ویژه آمارگیری‌های پانلی، بی‌پاسخی یک مشکل اساسی است که در داده‌های علوم اجتماعی و پزشکی به وفور رخ می‌دهد. این نوع مطالعه‌ها م...

full text

جانهی داده های گمشده در آمارگیری های پانلی با استفاده از الگوریتم em

در اقتصاد و سایر علوم اجتماعی، پژوهش گران اغلب تمایل به مدل بندی داده های پانلی که در آن واحدهای نمونه ای به طور مکرر در مقاطع زمانی مختلف مشاهده می شوند، دارند. یکی از کاربردهای داده های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در انواع آمارگیری ها به ویژه آمارگیری های پانلی، بی پاسخی یک مشکل اساسی است که در داده های علوم اجتماعی و پزشکی به وفور رخ می دهد. این نوع مطالعه ها مع...

15 صفحه اول

مقایسه ی جانهی الگوریتم em با دو روش جانهی میانگینی و نمونه های جدید در آمارگیری های پانلی

در اقتصاد و سایر علوم اجتماعی، پژوهش گران اغلب تمایل به مدل بندی داده های پانلی که در آن واحدهای نمونه ای به طور مکرر در مقاطع زمانی مختلف مشاهده می شوند، دارند. یکی از کاربردهای داده های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در تمام آمارگیری ها به ویژه آمارگیری های پانلی، بی پاسخی یک مشکل اساسی است که در داده های علوم اجتماعی و پزشکی به وفور رخ می دهد. این نوع مطالعه ها معم...

full text

استخراج دانش از داده های بیماران دیابتی با استفاده از روش درخت تصمیم C5.0

Introduction: In the last 10 years The incidence of diabetes has doubled worldwide with annual increasing rate of about 6%. More than 2 million people in Iran are now affected by this disease. The present research deals with the relation between the observed complications of type 2 diabetic patients and some related features like Blood Glucose Level, Blood Pressure, Age, and Family History. The...

full text

My Resources

Save resource for easier access later


Journal title:
مجله اپیدمیولوژی ایران

جلد ۱۱، شماره ۳، صفحات ۴۳-۵۱

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023